Jiaxun CAI et Mirana RATSIMIVEH
Vous devez résoudre quelques exercices théoriques et reproduire les exemples simples du cours en améliorant éventuellement le rendu.
Une fonction est une distance si elle respecte 3 axiomes :
- A1
: identité d’indecernibles \[
d(x,y)=0 <=> x=y
\] - A2 : symétrie \[
d(x,y)=d(y,x)
\] - A3 : inégalité triangulaire \[
d(x, z) ≤ d(x, y) + d(y, z)
\] Exercice 1 : Les axiomes A1, A2 et A3 impliquent
la non-négativité : \[
d(x, y) ≥ 0
\] \[
d(x, y) = 0 <=> x=y
\] \[
d(x, y) = d(y,x)
\] \[
d(x, z) ≤ d(x,y) + d(y,z)
\] \[
d(x, y) ≥ 0
\]
La distance euclidienne est définie : \[ d(x, z) ≤ d(x, y) + d(y, z) \] Exercice 2 : La distance euclidienne est une vraie distance. \[ d(x,y) = \sqrt{\sum_{m}^{j=1}(x_{j}-y_{j})^2}= 0 \] \[ \sum_{m}^{j=1}(x_{j}-y_{j})^2 = 0 \] \[ (x_{j}-y_{j})^2 = 0 \] \[ \forall j \text{, } x_{j}-y_{j}=0 \] \[ \forall j \text{, } x_{j}=y_{j} \] \[ \forall j \text{, } x=y \]
Nous allons déterminer la distance euclidienne entre les
vecteurs x = (0, 0) and y = (6, 6): - Création d’un data frame
contenant les vecteurs x et y, - Transposition du data frame, -
Utilisation de la fonction dist avec comme paramètres: le nom de la
méthode de distance utilisée, ici “euclidiean”. - Conversion du data
frame en matrix afin d’utiliser la fonction kable, - Utilisation de la
fonction kable pour l’esthétique du rendu.
| x | y | |
|---|---|---|
| x | 0.000000 | 8.485281 |
| y | 8.485281 | 0.000000 |
La distance Manhattan est définie : \[ d(x, z) ≤ d(x, y) + d(y, z) \] Nous allons déterminer la distance manhattan entre les vecteurs x = (0, 0) and y = (6, 6): nous utilisons le code de la distance euclidienne mais nous changeons la valeur du paramètre method de la fonction dist en “manhattan”.
| x | y | |
|---|---|---|
| x | 0 | 12 |
| y | 12 | 0 |
La distance Camberra est définie : \[
d(x, z) ≤ d(x, y) + d(y, z)
\] Exercice 3 : La distance canberra est une vraie
distance.
Nous allons déterminer la distance canberra entre les
vecteurs x = (0, 0) and y = (6, 6): nous utilisons le code de la
distance euclidienne mais nous changeons la valeur du paramètre method
de la fonction dist en “canberra”.
| x | y | |
|---|---|---|
| x | 0 | 2 |
| y | 2 | 0 |
La distance Minkowski est définie : \[ d(x, z) ≤ d(x, y) + d(y, z) \] Nous allons déterminer la distance canberra entre les vecteurs x = (0, 0) and y = (6, 6): nous utilisons le code de la distance euclidienne mais nous changeons la valeur du paramètre method de la fonction dist en “Minkowski”.
| x | y | |
|---|---|---|
| x | 0.000000 | 8.485281 |
| y | 8.485281 | 0.000000 |
Nous avons réalisé un graphique représentant la distance Minkowski
entre les vecteurs x et y.
| sex | married | hair | eyes | glasses | face | pesimist | evening | child | left | |
|---|---|---|---|---|---|---|---|---|---|---|
| Talia | 0 | 0 | 0 | 1 | 0 | 1 | 0 | 0 | 0 | 0 |
| Jacqueline | 0 | 1 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 |
| Kim | 0 | 0 | 1 | 0 | 0 | 0 | 1 | 0 | 0 | 1 |
| Lieve | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 1 | 1 | 0 |
| Tina | 0 | 0 | 0 | 1 | 0 | 1 | 0 | 0 | 0 | 0 |
| Ilan | 1 | 0 | 1 | 1 | 0 | 0 | 1 | 0 | 0 | 0 |
| Leon | 1 | 1 | 0 | 0 | 1 | 1 | 0 | 1 | 1 | 0 |
| Peter | 1 | 1 | 0 | 0 | 1 | 0 | 1 | 1 | 0 | 0 |
| Talia | Jacqueline | Kim | Lieve | Tina | Ilan | Leon | Peter | |
|---|---|---|---|---|---|---|---|---|
| Talia | 0.0000000 | 0.6324555 | 0.7071068 | 0.7071068 | 0.0000000 | 0.6324555 | 0.7745967 | 0.8366600 |
| Jacqueline | 0.6324555 | 0.0000000 | 0.7071068 | 0.5477226 | 0.6324555 | 0.7745967 | 0.6324555 | 0.5477226 |
| Kim | 0.7071068 | 0.7071068 | 0.0000000 | 0.7745967 | 0.7071068 | 0.5477226 | 0.9486833 | 0.7745967 |
| Lieve | 0.7071068 | 0.5477226 | 0.7745967 | 0.0000000 | 0.7071068 | 0.8366600 | 0.5477226 | 0.6324555 |
| Tina | 0.0000000 | 0.6324555 | 0.7071068 | 0.7071068 | 0.0000000 | 0.6324555 | 0.7745967 | 0.8366600 |
| Ilan | 0.6324555 | 0.7745967 | 0.5477226 | 0.8366600 | 0.6324555 | 0.0000000 | 0.8944272 | 0.7071068 |
| Leon | 0.7745967 | 0.6324555 | 0.9486833 | 0.5477226 | 0.7745967 | 0.8944272 | 0.0000000 | 0.5477226 |
| Peter | 0.8366600 | 0.5477226 | 0.7745967 | 0.6324555 | 0.8366600 | 0.7071068 | 0.5477226 | 0.0000000 |
Nous utilisons le package corrplot pour faire cette représentation. Malheuresement, une corrélation ne s’apparente pas à une distance mais plutôt à une similarité. Nous allons donc représenter directement les similarités fournies par la matrice des distances ci-dessus.
Visualisation de la matrice de correlation du jeu de donnée de 8
personnes
| col | sex |
|---|---|
| blue | H |
| brown | F |
| brown | F |
| col | sex | col_blue | col_brown | sex_F | sex_H |
|---|---|---|---|---|---|
| blue | H | 1 | 0 | 0 | 1 |
| brown | F | 0 | 1 | 1 | 0 |
| brown | F | 0 | 1 | 1 | 0 |
## 1 2 3
## 1 0
## 2 0 0
## 3 0 1 0
| war | fly | ver | end | gro | hai | |
|---|---|---|---|---|---|---|
| ant | 1 | 1 | 1 | 1 | 0 | 1 |
| bee | 1 | 0 | 1 | 1 | 0 | 0 |
| cat | 0 | 1 | 0 | 1 | 1 | 0 |
| cpl | 1 | 1 | 1 | 1 | 1 | 0 |
| chi | 0 | 1 | 0 | 0 | 0 | 0 |
| cow | 0 | 1 | 0 | 1 | 0 | 0 |
| duc | 0 | 0 | 0 | 1 | 0 | 1 |
| eag | 0 | 0 | 0 | 0 | 1 | 1 |
| ele | 0 | 1 | 0 | 0 | 0 | 1 |
| fly | 1 | 0 | 1 | 1 | 1 | 1 |
| fro | 1 | 1 | 0 | 0 | NA | 1 |
| her | 1 | 1 | 0 | 1 | 0 | 1 |
| lio | 0 | 1 | 0 | NA | 0 | 0 |
| liz | 1 | 1 | 0 | 1 | 1 | 1 |
| lob | 1 | 1 | 1 | 1 | NA | 1 |
| man | 0 | 1 | 0 | 0 | 0 | 0 |
| rab | 0 | 1 | 0 | 1 | 0 | 0 |
| sal | 1 | 1 | 0 | 1 | NA | 1 |
| spi | 1 | 1 | 1 | NA | 1 | 0 |
| wha | 0 | 1 | 0 | 0 | 0 | 1 |
Similarité entre les variables war et end : \[ \lvert (5 * 8) - (1 * 4)\rvert = 36 \]
| 0 | 1 | |
|---|---|---|
| 0 | 5 | 4 |
| 1 | 1 | 8 |
| war | fly | ver | end | gro | hai | |
|---|---|---|---|---|---|---|
| ant | 1 | 1 | 1 | 1 | 0 | 1 |
| bee | 1 | 0 | 1 | 1 | 0 | 0 |
| cat | 0 | 1 | 0 | 1 | 1 | 0 |
| cpl | 1 | 1 | 1 | 1 | 1 | 0 |
| chi | 0 | 1 | 0 | 0 | 0 | 0 |
| cow | 0 | 1 | 0 | 1 | 0 | 0 |
| duc | 0 | 0 | 0 | 1 | 0 | 1 |
| eag | 0 | 0 | 0 | 0 | 1 | 1 |
| ele | 0 | 1 | 0 | 0 | 0 | 1 |
| fly | 1 | 0 | 1 | 1 | 1 | 1 |
| fro | 1 | 1 | 0 | 0 | NA | 1 |
| her | 1 | 1 | 0 | 1 | 0 | 1 |
| lio | 0 | 1 | 0 | 0 | 0 | 0 |
| liz | 1 | 1 | 0 | 1 | 1 | 1 |
| lob | 1 | 1 | 1 | 1 | NA | 1 |
| man | 0 | 1 | 0 | 0 | 0 | 0 |
| rab | 0 | 1 | 0 | 1 | 0 | 0 |
| sal | 1 | 1 | 0 | 1 | NA | 1 |
| spi | 1 | 1 | 1 | 1 | 1 | 0 |
| wha | 0 | 1 | 0 | 0 | 0 | 1 |
Similarité :
(abs(1-0)+abs(0-1)+abs(0-1)+1+abs(1-3)/2+abs(3-15)/17+abs(150-25)/180+abs(50-15)/50)/8
## [1] 0.8875408
Le coefficient de Gower est une mesure de dissimilarité spécifiquement conçue pour traiter des types d’attributs ou des variables.
| begonia | broom | camellia | dahlia | forget-me-not | fuchsia | geranium | gladiolus | heather | hydrangea | iris | lily | lily-of-the-valley | peony | pink carnation | red rose | scotch rose | tulip | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| begonia | 0.0000000 | 0.8875408 | 0.5272467 | 0.3517974 | 0.4115605 | 0.2269199 | 0.2876225 | 0.4234069 | 0.5808824 | 0.6094363 | 0.3278595 | 0.4267565 | 0.5196487 | 0.2926062 | 0.6221814 | 0.6935866 | 0.7765114 | 0.4610294 |
| broom | 0.8875408 | 0.0000000 | 0.5147059 | 0.5504493 | 0.6226307 | 0.6606209 | 0.5999183 | 0.4641340 | 0.4316585 | 0.4531046 | 0.7096814 | 0.5857843 | 0.5248366 | 0.5949346 | 0.3903595 | 0.3575163 | 0.1904412 | 0.4515114 |
| camellia | 0.5272467 | 0.5147059 | 0.0000000 | 0.5651552 | 0.3726307 | 0.3003268 | 0.4896242 | 0.6038399 | 0.4463644 | 0.4678105 | 0.5993873 | 0.6004902 | 0.5395425 | 0.6096405 | 0.5300654 | 0.6222222 | 0.5801471 | 0.7162173 |
| dahlia | 0.3517974 | 0.5504493 | 0.5651552 | 0.0000000 | 0.6383578 | 0.4189951 | 0.3435866 | 0.2960376 | 0.8076797 | 0.5570670 | 0.6518791 | 0.5132761 | 0.7464461 | 0.3680147 | 0.5531454 | 0.3417892 | 0.4247141 | 0.4378268 |
| forget-me-not | 0.4115605 | 0.6226307 | 0.3726307 | 0.6383578 | 0.0000000 | 0.3443627 | 0.4197712 | 0.4673203 | 0.3306781 | 0.3812908 | 0.3864788 | 0.5000817 | 0.2919118 | 0.5203431 | 0.4602124 | 0.7301471 | 0.6880719 | 0.4755310 |
| fuchsia | 0.2269199 | 0.6606209 | 0.3003268 | 0.4189951 | 0.3443627 | 0.0000000 | 0.1892974 | 0.5714869 | 0.5136846 | 0.4119281 | 0.4828840 | 0.5248366 | 0.4524510 | 0.3656863 | 0.5091503 | 0.5107843 | 0.5937092 | 0.6438317 |
| geranium | 0.2876225 | 0.5999183 | 0.4896242 | 0.3435866 | 0.4197712 | 0.1892974 | 0.0000000 | 0.4107843 | 0.5890931 | 0.5865196 | 0.5652369 | 0.6391340 | 0.5278595 | 0.5049837 | 0.3345588 | 0.4353758 | 0.5183007 | 0.4692402 |
| gladiolus | 0.4234069 | 0.4641340 | 0.6038399 | 0.2960376 | 0.4673203 | 0.5714869 | 0.4107843 | 0.0000000 | 0.6366422 | 0.6639706 | 0.4955474 | 0.4216503 | 0.5754085 | 0.4558007 | 0.4512255 | 0.6378268 | 0.4707516 | 0.1417892 |
| heather | 0.5808824 | 0.4316585 | 0.4463644 | 0.8076797 | 0.3306781 | 0.5136846 | 0.5890931 | 0.6366422 | 0.0000000 | 0.4256127 | 0.4308007 | 0.4194036 | 0.2181781 | 0.4396650 | 0.2545343 | 0.6494690 | 0.6073938 | 0.5198529 |
| hydrangea | 0.6094363 | 0.4531046 | 0.4678105 | 0.5570670 | 0.3812908 | 0.4119281 | 0.5865196 | 0.6639706 | 0.4256127 | 0.0000000 | 0.3948121 | 0.3812092 | 0.3643791 | 0.3609477 | 0.4210784 | 0.3488562 | 0.3067810 | 0.8057598 |
| iris | 0.3278595 | 0.7096814 | 0.5993873 | 0.6518791 | 0.3864788 | 0.4828840 | 0.5652369 | 0.4955474 | 0.4308007 | 0.3948121 | 0.0000000 | 0.2636029 | 0.3445670 | 0.2838644 | 0.4806781 | 0.7436683 | 0.7015931 | 0.5359477 |
| lily | 0.4267565 | 0.5857843 | 0.6004902 | 0.5132761 | 0.5000817 | 0.5248366 | 0.6391340 | 0.4216503 | 0.4194036 | 0.3812092 | 0.2636029 | 0.0000000 | 0.2331699 | 0.1591503 | 0.4295752 | 0.6050654 | 0.5629902 | 0.5495507 |
| lily-of-the-valley | 0.5196487 | 0.5248366 | 0.5395425 | 0.7464461 | 0.2919118 | 0.4524510 | 0.5278595 | 0.5754085 | 0.2181781 | 0.3643791 | 0.3445670 | 0.2331699 | 0.0000000 | 0.3784314 | 0.3183007 | 0.5882353 | 0.5461601 | 0.5733252 |
| peony | 0.2926062 | 0.5949346 | 0.6096405 | 0.3680147 | 0.5203431 | 0.3656863 | 0.5049837 | 0.4558007 | 0.4396650 | 0.3609477 | 0.2838644 | 0.1591503 | 0.3784314 | 0.0000000 | 0.4351307 | 0.4598039 | 0.5427288 | 0.5698121 |
| pink carnation | 0.6221814 | 0.3903595 | 0.5300654 | 0.5531454 | 0.4602124 | 0.5091503 | 0.3345588 | 0.4512255 | 0.2545343 | 0.4210784 | 0.4806781 | 0.4295752 | 0.3183007 | 0.4351307 | 0.0000000 | 0.3949346 | 0.3528595 | 0.5096814 |
| red rose | 0.6935866 | 0.3575163 | 0.6222222 | 0.3417892 | 0.7301471 | 0.5107843 | 0.4353758 | 0.6378268 | 0.6494690 | 0.3488562 | 0.7436683 | 0.6050654 | 0.5882353 | 0.4598039 | 0.3949346 | 0.0000000 | 0.1670752 | 0.7796160 |
| scotch rose | 0.7765114 | 0.1904412 | 0.5801471 | 0.4247141 | 0.6880719 | 0.5937092 | 0.5183007 | 0.4707516 | 0.6073938 | 0.3067810 | 0.7015931 | 0.5629902 | 0.5461601 | 0.5427288 | 0.3528595 | 0.1670752 | 0.0000000 | 0.6125408 |
| tulip | 0.4610294 | 0.4515114 | 0.7162173 | 0.4378268 | 0.4755310 | 0.6438317 | 0.4692402 | 0.1417892 | 0.5198529 | 0.8057598 | 0.5359477 | 0.5495507 | 0.5733252 | 0.5698121 | 0.5096814 | 0.7796160 | 0.6125408 | 0.0000000 |
Visualisation et calcul de matrice de distance
fviz_dist(d_flow)
| Energy | Protein | Calcium | |
|---|---|---|---|
| BB | 11 | 29 | 1 |
| HR | 8 | 30 | 1 |
| BR | 13 | 21 | 1 |
| BS | 12 | 27 | 1 |
| BC | 6 | 31 | 2 |
| CB | 4 | 29 | 1 |
| CC | 5 | 36 | 1 |
| BH | 5 | 37 | 2 |
Le taux d’erreur est égale à :
## [1] 14.16667
Les différents objets avec leurs clusters
## BB HR BR BS BC CB CC BH
## 1 4 2 1 4 4 3 3
Méthode pour déterminer le nombre idéal de k
Visualiser k-means, les clusters
Silhouette : valeurs et visualisation
## cluster size ave.sil.width
## 1 1 2 0.60
## 2 2 1 0.00
## 3 3 2 0.79
## 4 4 3 0.41
| x | y |
|---|---|
| 1 | 4 |
| 5 | 1 |
| 5 | 2 |
| 5 | 4 |
| 10 | 4 |
| 25 | 4 |
| 25 | 6 |
| 25 | 7 |
| 25 | 8 |
| 29 | 7 |
## [1] 5050
K-means clustering analysis des pays
Partitionnement autour des médoïdes
## x y
## [1,] 5 2
## [2,] 25 7
## Medoids:
## ID x y
## [1,] 3 5 2
## [2,] 8 25 7
## Clustering vector:
## [1] 1 1 1 1 1 2 2 2 2 2
## Objective function:
## build swap
## 3.421612 2.185730
##
## Numerical information per cluster:
## size max_diss av_diss diameter separation
## [1,] 5 5.385165 2.57146 9 15
## [2,] 5 4.000000 1.80000 5 15
##
## Isolated clusters:
## L-clusters: character(0)
## L*-clusters: [1] 1 2
##
## Silhouette plot information:
## cluster neighbor sil_width
## 3 1 2 0.8491030
## 4 1 2 0.8331846
## 2 1 2 0.8277844
## 1 1 2 0.7748486
## 5 1 2 0.6069286
## 8 2 1 0.8888381
## 7 2 1 0.8863332
## 9 2 1 0.8641158
## 6 2 1 0.8238081
## 10 2 1 0.8215954
## Average silhouette width per cluster:
## [1] 0.7783698 0.8569381
## Average silhouette width of total data set:
## [1] 0.817654
##
## 45 dissimilarities, summarized :
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.000 4.123 15.297 13.310 20.616 28.160
## Metric : euclidean
## Number of objects : 10
##
## Available components:
## [1] "medoids" "id.med" "clustering" "objective" "isolation"
## [6] "clusinfo" "silinfo" "diss" "call" "data"
| BEL | BRA | CHI | CUB | EGY | FRA | IND | ISR | USA | USS | YUG | ZAI | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| BEL | 0.00 | 5.58 | 7.00 | 7.08 | 4.83 | 2.17 | 6.42 | 3.42 | 2.50 | 6.08 | 5.25 | 4.75 |
| BRA | 5.58 | 0.00 | 6.50 | 7.00 | 5.08 | 5.75 | 5.00 | 5.50 | 4.92 | 6.67 | 6.83 | 3.00 |
| CHI | 7.00 | 6.50 | 0.00 | 3.83 | 8.17 | 6.67 | 5.58 | 6.42 | 6.25 | 4.25 | 4.50 | 6.08 |
| CUB | 7.08 | 7.00 | 3.83 | 0.00 | 5.83 | 6.92 | 6.00 | 6.42 | 7.33 | 2.67 | 3.75 | 6.67 |
| EGY | 4.83 | 5.08 | 8.17 | 5.83 | 0.00 | 4.92 | 4.67 | 5.00 | 4.50 | 6.00 | 5.75 | 5.00 |
| FRA | 2.17 | 5.75 | 6.67 | 6.92 | 4.92 | 0.00 | 6.42 | 3.92 | 2.25 | 6.17 | 5.42 | 5.58 |
| IND | 6.42 | 5.00 | 5.58 | 6.00 | 4.67 | 6.42 | 0.00 | 6.17 | 6.33 | 6.17 | 6.08 | 4.83 |
| ISR | 3.42 | 5.50 | 6.42 | 6.42 | 5.00 | 3.92 | 6.17 | 0.00 | 2.75 | 6.92 | 5.83 | 6.17 |
| USA | 2.50 | 4.92 | 6.25 | 7.33 | 4.50 | 2.25 | 6.33 | 2.75 | 0.00 | 6.17 | 6.67 | 5.67 |
| USS | 6.08 | 6.67 | 4.25 | 2.67 | 6.00 | 6.17 | 6.17 | 6.92 | 6.17 | 0.00 | 3.67 | 6.50 |
| YUG | 5.25 | 6.83 | 4.50 | 3.75 | 5.75 | 5.42 | 6.08 | 5.83 | 6.67 | 3.67 | 0.00 | 6.92 |
| ZAI | 4.75 | 3.00 | 6.08 | 6.67 | 5.00 | 5.58 | 4.83 | 6.17 | 5.67 | 6.50 | 6.92 | 0.00 |
Partitionnement autour des médoïdes
## Medoids:
## ID
## [1,] "9" "USA"
## [2,] "4" "CUB"
## Clustering vector:
## BEL BRA CHI CUB EGY FRA IND ISR USA USS YUG ZAI
## 1 1 2 2 1 1 2 1 1 2 2 1
## Objective function:
## build swap
## 3.291667 3.236667
##
## Available components:
## [1] "medoids" "id.med" "clustering" "objective" "isolation"
## [6] "clusinfo" "silinfo" "diss" "call"
Silhouette : valeurs et visualisation
## cluster size ave.sil.width
## 1 1 7 0.34
## 2 2 5 0.33
## cluster neighbor sil_width
## BEL 1 2 0.39129752
## BRA 1 2 0.22317708
## CHI 2 1 0.32512211
## CUB 2 1 0.39814815
## EGY 1 2 0.19652641
## FRA 1 2 0.35152954
## IND 2 1 -0.04466159
## ISR 1 2 0.29785894
## USA 1 2 0.42519084
## USS 2 1 0.34104696
## YUG 2 1 0.26177642
## ZAI 1 2 0.18897849
## attr(,"Ordered")
## [1] FALSE
## attr(,"call")
## silhouette.default(x = PAM_Rousseeuw$clustering, dist = df_Rousseeuw)
## attr(,"class")
## [1] "silhouette"
## cluster size ave.sil.width
## 1 1 7 0.30
## 2 2 5 0.26
Avec les données de revenu moyen Eurostat, complétez la carte de
représentation du revenu moyen en Europe pour une année donnée.
Produisez des graphiques dynamiques de l’évolution de la richesse
en Europe.
Téléchargez des données sur l’indice d’inégalité de Gini après
avoir expliqué son calcul et ses propriétés (bonnes ou mauvaises).
Indice de Gini
Si l’on dispose de données brutes
de revenus ou d’une richesse quelconque, qui sont des valeurs positives
notées \(x_1,x_2,\cdots,x_n\), où \(n\) est le nombre d’individus, l’indice de
Gini associé à ces valeurs, noté \(G\),
est défini par : \[
G=\frac{\sum_{i=1}^n\sum_{j=1}^n|x_i-x_j|/n^2}{2\mu},
\] où \[
\mu=\frac{\sum_{i=1}^n x_i}{n}.
\] Cet indice est souvent utilisé pour mesurer les inégalités
de revenu dans une population. On remarque que l’orsqu’on double les
salaires, \(G\) reste invariant Si l’on
rajoute un même montant a tous les individus, le numérateur de \(G\) reste invariant tandis que le
dénominateur croît. Ainsi, \(G\) va
baisser. On rappelle que si \(a\) et
\(b\) sont deux nombres, \(|a-b|=a + b -2\min(a,b)\), cela induit une
nouvelle expression de l’indice de Gini \[
G=1-\frac{\sum_{i=1}^n\sum_{j=1 }^n
\min(x_i,x_j)/n^2}{\mu}.
\] Chargement des données de
l’inégalité
| annee | geo | pays | quantile | values | |
|---|---|---|---|---|---|
| Min. :1995 | Length:6380 | Length:6380 | Length:6380 | Min. : 0.5 | |
| 1st Qu.:2006 | Class :character | Class :character | Class :character | 1st Qu.: 6.1 | |
| Median :2011 | Mode :character | Mode :character | Mode :character | Median : 8.9 | |
| Mean :2010 | NA | NA | NA | Mean :10.0 | |
| 3rd Qu.:2016 | NA | NA | NA | 3rd Qu.:12.1 | |
| Max. :2020 | NA | NA | NA | Max. :34.5 |
| annee | geo | pays | coefficient_Gini | |
|---|---|---|---|---|
| Min. :1995 | Length:638 | Length:638 | Min. :0.2332 | |
| 1st Qu.:2006 | Class :character | Class :character | 1st Qu.:0.2873 | |
| Median :2011 | Mode :character | Mode :character | Median :0.3056 | |
| Mean :2010 | NA | NA | Mean :0.3032 | |
| 3rd Qu.:2016 | NA | NA | 3rd Qu.:0.3213 | |
| Max. :2020 | NA | NA | Max. :0.3670 |
l’espérance de vie en bonne santé basée sur la santé perçue par l’individu
| annee | geo | pays | values |
|---|---|---|---|
| 2019 | AT | Austria | 75.86667 |
| 2019 | BE | Belgium | 75.66667 |
| 2019 | BG | Bulgaria | 70.16667 |
| 2019 | CH | Switzerland | 81.16667 |
| 2019 | CY | Cyprus | 77.13333 |
| 2019 | CZ | Czechia | 73.10000 |
| 2019 | DE | Germany | 75.43333 |
| 2019 | DK | Denmark | 75.90000 |
| 2019 | EE | Estonia | 70.33333 |
| 2019 | ES | Spain | 78.36667 |
| 2019 | FI | Finland | 78.16667 |
| 2019 | FR | France | 76.33333 |
| 2019 | HR | Croatia | 68.23333 |
| 2019 | HU | Hungary | 69.46667 |
| 2019 | IE | Ireland | 80.30000 |
| 2019 | IT | Italy | 78.70000 |
| 2019 | LT | Lithuania | 67.93333 |
| 2019 | LU | Luxembourg | 75.60000 |
| 2019 | LV | Latvia | 67.16667 |
| 2019 | MT | Malta | 79.46667 |
| 2019 | NL | Netherlands | 78.36667 |
| 2019 | NO | Norway | 76.70000 |
| 2019 | PL | Poland | 69.73333 |
| 2019 | PT | Portugal | 71.50000 |
| 2019 | RO | Romania | 71.16667 |
| 2019 | SE | Sweden | 79.30000 |
| 2019 | SI | Slovenia | 74.23333 |
| 2019 | SK | Slovakia | 68.56667 |
Population par niveau d’éducation, sexe et âge (%)
| annee | geo | pays | values |
|---|---|---|---|
| 2019 | AT | Austria | 85.56667 |
| 2019 | BE | Belgium | 78.70000 |
| 2019 | BG | Bulgaria | 82.50000 |
| 2019 | CH | Switzerland | 89.00000 |
| 2019 | CY | Cyprus | 82.46667 |
| 2019 | CZ | Czechia | 93.76667 |
| 2019 | DE | Germany | 86.63333 |
| 2019 | DK | Denmark | 81.60000 |
| 2019 | EE | Estonia | 88.96667 |
| 2019 | ES | Spain | 61.30000 |
| 2019 | FI | Finland | 90.10000 |
| 2019 | FR | France | 80.50000 |
| 2019 | HR | Croatia | 85.80000 |
| 2019 | HU | Hungary | 84.96667 |
| 2019 | IE | Ireland | 83.63333 |
| 2019 | IS | Iceland | 78.66667 |
| 2019 | IT | Italy | 62.16667 |
| 2019 | LT | Lithuania | 94.93333 |
| 2019 | LU | Luxembourg | 79.30000 |
| 2019 | LV | Latvia | 91.10000 |
| 2019 | ME | Montenegro | 87.83333 |
| 2019 | MK | North Macedonia | 71.56667 |
| 2019 | MT | Malta | 57.80000 |
| 2019 | NL | Netherlands | 79.56667 |
| 2019 | NO | Norway | 83.20000 |
| 2019 | PL | Poland | 92.60000 |
| 2019 | PT | Portugal | 52.06667 |
| 2019 | RO | Romania | 79.00000 |
| 2019 | RS | Serbia | 81.50000 |
| 2019 | SE | Sweden | 86.13333 |
| 2019 | SI | Slovenia | 88.80000 |
| 2019 | SK | Slovakia | 91.36667 |
| 2019 | TR | Turkey | 38.90000 |
| coefficient_Gini | Revenu_Moyen/€ | espérance_de_vie/an | éducation_postsecondaire/% | |
|---|---|---|---|---|
| AL | 0.2808 | 2619 | 0.00000 | 0.00000 |
| AT | 0.3152 | 28568 | 75.86667 | 85.56667 |
| BE | 0.3273 | 26275 | 75.66667 | 78.70000 |
| BG | 0.2520 | 5551 | 70.16667 | 82.50000 |
| CH | 0.2995 | 47622 | 81.16667 | 89.00000 |
| CY | 0.2959 | 19302 | 77.13333 | 82.46667 |
| CZ | 0.3334 | 11068 | 73.10000 | 93.76667 |
| DE | 0.3066 | 26105 | 75.43333 | 86.63333 |
| DK | 0.3156 | 34332 | 75.90000 | 81.60000 |
| EE | 0.2975 | 12780 | 70.33333 | 88.96667 |
| ES | 0.2900 | 17287 | 78.36667 | 61.30000 |
| FI | 0.3219 | 28061 | 78.16667 | 90.10000 |
| FR | 0.3068 | 26210 | 76.33333 | 80.50000 |
| HR | 0.3067 | 8089 | 68.23333 | 85.80000 |
| HU | 0.3105 | 6568 | 69.46667 | 84.96667 |
| IE | 0.3140 | 29684 | 80.30000 | 83.63333 |
| IT | 0.2908 | 19528 | 78.70000 | 62.16667 |
| LT | 0.2764 | 9264 | 67.93333 | 94.93333 |
| LU | 0.2922 | 42818 | 75.60000 | 79.30000 |
| LV | 0.2783 | 9749 | 67.16667 | 91.10000 |
| ME | 0.2815 | 4241 | 0.00000 | 87.83333 |
| MK | 0.2956 | 2972 | 0.00000 | 71.56667 |
| MT | 0.3098 | 17246 | 79.46667 | 57.80000 |
| NL | 0.3221 | 27352 | 78.36667 | 79.56667 |
| NO | 0.3260 | 42488 | 76.70000 | 83.20000 |
| PL | 0.3105 | 8022 | 69.73333 | 92.60000 |
| PT | 0.2923 | 11786 | 71.50000 | 52.06667 |
| RO | 0.2788 | 4419 | 71.16667 | 79.00000 |
| RS | 0.2861 | 3665 | 0.00000 | 81.50000 |
| SE | 0.3155 | 26356 | 79.30000 | 86.13333 |
| SI | 0.3330 | 15236 | 74.23333 | 88.80000 |
| SK | 0.3371 | 8523 | 68.56667 | 91.36667 |
| TR | 0.2477 | 4113 | 0.00000 | 38.90000 |
Nous utiliserons deux méthodes pour décider du nombre de clusters.
La méthode du coude : dans laquelle la somme des carrés à chaque
nombre de clusters est calculée et représentée graphiquement, on peut
ainsi rechercher un changement de pente de abrupte à douce (un elbow)
pour déterminer le nombre optimal de clusters. Cette méthode est
inexacte, mais elle peut être utile.
La méthode des silhouettes : elle permet de déterminer le nombre
optimal de clusters. La méthode de la silhouette moyenne calcule la
silhouette moyenne des observations pour différentes valeurs de k. Le
nombre optimal de clusters k est celui qui maximise la silhouette
moyenne sur une gamme de valeurs possibles pour k.
Même si la méthode de la silhouette nous suggère de prendre cinq
clusters, nous avons cependant découvert que deux clusters peuvent
également apporter une largeur de silhouette relativement élevée. Nous
allons donc continuer à mener notre analyse en deux clusters afin de
faciliter l’analyse.
| coefficient_Gini | Revenu_Moyen/€ | espérance_de_vie/an | éducation_postsecondaire/% | |
|---|---|---|---|---|
| Cluster1 | 0.3135583 | 32155.917 | 77.4000 | 83.66111 |
| Cluster2 | 0.2945095 | 9620.381 | 55.0127 | 74.73333 |